3 主成分分析

主成分分析(Principle Component Analysis, PCA) 利用正交变换, 将线性相关变量转变为少数几个线性无关变量表示的数据, 是一种数据降维方法. 线性无关的变量称为主成分.

1 总体主成分分析

1.1 定义和导出

假设x=(x1,,xm)Tm维随机变量, 均值为μ=E(x)=(μ1,,μm)T,
协方差矩阵是Σ=Cov(x,x)=E[(xμ)(xμ)T].
考虑m维向量xm维向量y=(y1,,ym)T的线性变换(1.1)yi=αiTx=α1ixi++αmixm=j=1mαjixj.
(αiT=(α1i,,αmi).) 则E(yi)=αiTμ,1im,Var(yi)=αiTΣαi,1im,Cov(yi,yj)=αiTΣαj,1i,jm.

总体主成分

给定线性变换如 (1.1), 如果它满足:

  • αiT是单位正交向量, 即αiTαj=δij,1i,jm;
  • yi,yj互不相关, 即Cov(yi,yj)=0,ij;
  • y1x所有线性变换中方差最大的; y2是与y1不相关的x的所有线性变换中方差最大的; ……; yix线性变换中与y0,,yi1都不线性相关的中方差最大的, 此时称y1,,ym分别为x第一主成分, ... , m主成分.

根据定义, 求解第一主成分就是求解如下优化问题maxα1 Var(α1Tx)=α1TΣα1,(1.2)s.t. α1Tα1=1.

1.2 主要性质

下面的定理说明了总体主成分与Σ特征值、特征向量的关系, 同时给出了一个求主成分的方法.

定理 1.1

Σ有特征值λ1λm0, 对应的单位特征向量分别是α1,,αm, 则x的第k主成分是(1.3)yk=αkTx=α1kx1+α2kx2++αmkxm,1km,
对应的方差是Var(yk)=αkTΣαk=λk.

推论 1.1

y=(y1,,ym)T的分量依次是x的第一、...、第m主成分等价于:

  1. y=ATx, A=(αij)m×m是正交阵;
  2. y的协方差矩阵为对角阵Cov(y)=Λ=diag(λ1,,λm),λ1λ2λm,
    其中λkΣ的第k个特征值, αk是对应的单位特征向量.

Σαk=λkαk用矩阵表示为ΣA=AΛ.A的正交性: ATA=AAT=I, 进而ATΣA=Λ,Σ=AΛAT.

定理 1.2 总体主成分的性质

假设总体主成分为y. 则

  1. (1.4)Cov(y)=Λ=diag(λ1,,λm).
  2. σiixi的方差, 而λi又是y的方差, 则(1.5)i=1mλi=i=1mσii.
  3. 定义ykxi的相关系数ρ(yk,xi)因子负荷量, 则(1.6)ρ(yk,xi)=λkαikσii,1k,im.
  4. (1.7)i=1mσiiρ2(yk,xi)=λk.
  5. (1.8)k=1mρ2(yk,xi)=1.

1.3 主成分的个数

尽管主成分可以有m个, 但是为了降维, 我们会选k<<m, 在简化问题的同时保留大部分信息. 这里的信息指原有变量的方差.

定理 1.3

任意[1,m]上的正整数q, 考虑正交变换y=BTx,其中yq维向量, BTq×m维矩阵, 令y的协方差矩阵为Σy=BTΣB. 则tr(Σy)B=Aq时取到最大值, Aq是正交矩阵A的前q列.